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Proced§ de pr6conditionneimenft et de codage d'une table de donnees, et 
proced6 de omise en ceuvre de requeues tabulates suet une machine & 
capacitSs vectorielles. 

5 La presente invention concerne un procede de preconditionnement d'une table 
de donnees destinee a etre utilise par un moteur de recherche repondant a des 
requetes de selection d'articles sur des criteres determines. 
Elle concerne egalement un procede de recherche d'articles, en reponse a une 
requete determinee, dans une table de donnees et un moteur de recherche 
q 10 agissant sur une table de donnees contenant un ensemble d'articles cible, 
active par des requetes de selection d'articles sur des criteres determines. 
Le domaine duplication est celui de I'entrepot de donnees plus connu sous la 
terminologie anglo-saxonne de "data warehousing". II s'adresse plus 
particufierement a de grandes bases de donnees historiques, relativement 
15 stables dans le temps a partir desquelles on veut pouvoir extraire des 
populations definies par criteres avec une sollicitation tres frequente et des 
temps de reponse les plus faibles possibles. 

Typiquement ces bases peuvent contenir plusieurs millions d'articles pouvant 
comporter chacun plusieurs centaines de champs et les temps de reponse a 
20 des requetes standards peuvent etre longs alors que I'utilisateur souhaiterait 
O q u ' ils soient de Tordre de la seconde. Elles sont mises a jour periodiquement, 

au plus chaque nuit. 

Les clients potentiels de ce type de bases sont par exemple, la grande 
distribution, les banques et les assurances. 
25 La grande distribution manipule des bases historiques des caisses et des 
cartes d'achat pour rechercher des populations cible pour le marketing direct. 
Les banques et les assurances manipulent egalement de telles bases 

historiques-relatives-a-des^ordres^clientf-pour^des^recherches^de^populations^ 

clientes potentielles de nouveaux produits, etc. 
30 On connait des solutions reposant sur la mise en oeuvre du parallelisme pour 
Pextraction d'articles sur unites de stockage. 


• o 

2 

Toutes les solutions connues utilisent un mecanisme de gestion de bases de 
donnees relationnelles mises a jour et consultees depuis un environnement 
reseau. Ce mecanisme est connu sous I'acronyme RDBMS (Relational 
DataBase Management System). 

5 Dans un premier type de solution, un moteur de recherche SQL (Search Query 
Language), completement proprietaire, est construit sur une architecture 
hautement parallele a base de noeuds multiprocesseurs pilotant des disques 
sur lesquels la base de donnees est repartie. Les requetes sont fractionnees 
sur les differents noeuds, puis sur les processeurs. 

10 Cette solution a comme principal inconvenient d'avoir un rapport 

prix/performance qui reste eleve. Ainsi, pour atteindre de hautes performances, ^ 
les configurations doivent etre importantes, done tres couteuses. 
Un deuxieme type de solutions utilise des logiciels de bases de donnees 
relationnelles standards sur des machines standards generalement 

15 multiprocesseurs. 

Dans ce deuxieme type de solutions, un moteur de recherche SQL standard 
met en ceuvre le parallelisme eleve suivant les memes principes que les 
solutions du premier type mais avec des variantes d'architecture sur les 
mecanismes de fractionnement des requetes et sur la gestion des 

20 antememoires. 

Les inconvenients de ce deuxieme type de solutions sont les memes que ceux q 
du premier type, aggraves d'une perte de performance due a la lourdeur du 
logiciel qui est une consequence de sa generalite. 

L'invention a notamment pour but de pallier ces inconvenients en fournissant 
25 un moteur de recherche assez puissant pour effectuer dans des delais tres 
courts, de I'ordre de quelques secondes, sur des tables de donnees de grande 
dimension mais stables dans le temps (mises a jour periodiques, au plus 
chaque nuit), des reguetes de s election d 'articles sur criteres. — . 

A cet effet, Tinvention a pour premier objet un procede de preconditionnement 
30 d'une ou plusieurs tables de donnees d'un serveur applicatif decisionnel, 
destinee a etre traitee par un moteur de recherche repondant k des requetes 



de selection d'articles sur des criteres determines, emises par le serveur 

applicatif decisionnel. 

Le procede selon I'invention consiste a : 

- analyser les predicats contenus dans les champs des articles destines a 
5 remplir la base de donnees relationnelle en fonction de relations autorisee 

determines ; 

- creer une nomenclature des predicats a partir de cette analyse ; 

- coder numeriquement les predicats conformement a la nomenclature, en 
tenant compte de la nature des predicats et des relations & mettre en ceuvre 

10 sur les predicats dans les requetes. 

II consiste enfin a presenter les predicats codes, sous la forme d'une table de 
valeurs numeriques. 

(-'invention a pour deuxierne objet un procede de recherche d'articles, en 
reponse a une requete determinee, dans une table de donnees, consistant a 
15 installer une copie de la table de valeurs numeriques obtenue par le procede 
precedent, sur une machine a capacite vectorielle operant le traitement des 
valeurs numeriques du tableau en fonctions de la requete servie par le serveur 
applicatif decisionnel. 

Enfin elle a pour troisieme objet un systeme de recherche mis en oeuvre par un 
20 serveur applicatif decisionnel comportant une base de donnees relationnelle 

contenant un ensemble d'articles cible, et un moteur de recherche couple au 

serveur applicatif decisionnel, active par une requete de selection d'articles sur 

des criteres determines emise par le serveur applicatif decisionnel. 

Selon I'invention, le systeme est characterise en ce que le moteur comporte des 
25 moyens de preconditionnement des donnees de la base et d'installation d'une 

table codee, correspondant a la base, sur une machine a capacites 

vectorielles, ces moyens comportant : 
des moyensjiejecture^ 

- des moyens pour constituer une nomenclature des valeurs des champs 
30 contenus dans le fichier precedent ; 
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- des moyens de codage des champs conformement a la nomenclature en 
tenant compte de la nature des champs et des relations a mettre en ceuvre sur 
les predicats dans la requete ; 

- des moyens d'analyse des requetes emises par le serveur applicatif 
5 decisionnel, en tenant compte de relations autorisees, de contraintes sur les 

predicats et de la nomenclature ; et 

- des moyens de codage de la requete filtree, en un ensemble de vecteurs 
contenant les valeurs a trouver dans les champs selon les relations associees, 
sous forme d'un fichier d'entree exploitable par la machine a capacites 

10 vectorielle. 

Le systeme comporte en outre des moyens pour extraire en clair les donnees 
recherchees dans le fichier resultat obtenu en sortie de la machine a capacites 
vectorielle a partir de moyens de recherche installes dans le serveur applicatif 
decisionnel. 

15 Des syntheses statistiques peuvent etre en outre operees sur les resultats de 
la recherche. 

L'invention a notamment pour avantage de fournir des temps de reponse tres 
courts, inaccessibles par les techniques RDBMS, et un debit de requetes 
elev6. 

20 Elle a pour autres avantages d'etre transparente pour I'application existante et 
de n'avoir aucun impact au niveau applicatif. 

D'autres avantages et caracteristiques de la presente invention apparaltront a 
la lecture de la description qui suit faite en reference aux figures annexees qui 
represented : 

25 - la figure 1 , un schema de principe d'un systeme de recherche mettant en 
oeuvre un moteur de recherche selon I'invention; 

- la figure 2, un schema de principe d'un module de preconditionnement et 
dMnstallation de la base de donnees, selon I'invention ; et 


- la figure 3, un schema de principe d'un agent SELECT selon I'invention. 
30 Dans ces figures, les elements homologues sont designes par les memes 
references numeriques. 


o 


o 


o 
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Le principe de I'invention est decrit ci-apres en s'appuyant pour son illustration, 
sur I'utiiisation d'une machine vectorielle connue sous I'appellation de 
supercalculateur. 

Une telle machine est caracterisee, d'une part, par des processeurs possedant 
5 plusieurs unites arithmetiques, "pipelines" en terminologie anglo-saxonne et, 
d'autre part, par une bande passante memoire suffisante pour assurer 
I'alimentation de tous les processeurs a chaque top d'horloge. 
L'invention n'est cependant pas limitee a ce type de machine et s'applique & 
toute machine a capacites vectorielles, c'est-a-dire des machines dont les 
10 performances se rapprochent de celles des supercalculateurs vectoriels. 

En effet, les calculateurs scalaires actuels comportent plusieurs operateurs 
arithmetiques et les bandes passantes memoire progressent grace a I'usage 
d'une technologie, connue sous la terminologie anglo-saxonne "crossbar" 
(autocommutateur). On peut done envisager dans un avenir proche que les 
15 performances des calculateurs scalaires se rapprochent de celles des 
supercalculateurs vectoriels. 

Les supercalculateurs vectoriels offrent des maintenant une reponse aux 
demandes toujours grandissantes de performances dans les domaines des 
sciences et de I'industrie en general. 

20 Les machines vectorielles sont aujourd'hui les seules a pouvoir repondre aux 
contraintes deja exprimees dans le preambule de la presente description. 
L'idee de base de Tinvention est de tirer parti de la puissance exceptionnelle 
des machines a capacites vectorielles pour effectuer des comparaisons sur les 
vecteurs numeriques, images codees des champs de la table de donnees. 

25 La transformation en nombres des donnees de la table a traiter, et la formation 
d'une nomenclature a partir de ces nombres sont realisees lors de rinstallation 
de la base de donnees relationnelle. 

Le codage des donnees en nombres a pour autre effet avanta geux de 
compacter les donnees de la base. Ainsi par rapport aux solutions de type 
30 RDBMS qui manipulent le contenu en clair de chaque champ, le procede selon 
Tinvention n'agit que sur un nombre representatif de ce champ. 
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La table ainsi compactee peut etre en general contenue en memoire (pas 
d'entree-sortie disque), ou bien peut etre chargee en memoire par colonne ce 
qui ne represente que des volumes reduits d'entrees/sorties. 
Enfin Tinvention offre la possibility d'adapter le codage au type de requetes qui 
5 seront servies. Elle permet en outre la mise en oeuvre d ! une optimisation 
efficace du traitement. 

La figure 1 illustre un schema de principe d'un systeme de recherche mettant 
en oeuvre un moteur de recherche selon I'invention. 

Le systeme de recherche comporte, a gauche de la figure, un systeme 
10 applicatif decisionnel 1, representatif du cas general, delimite par une ligne 
fermee discontinue, et le moteur de recherche 2, a droite de la figure, delimite 
par une ligne fermee discontinue. 

Le systeme applicatif decisionnel 1 est couple a un poste utilisateur (ou client) 
3. 

15 Le serveur applicatif decisionnel 1 comporte un serveur applicatif 4 generant 
des requetes predefinies, un RDBMS 5 gerant une base de donnees 6, et un 
agent SQL 7 charge d'analyser les requetes soumises par le serveur applicatif 
4 et, eventuellement, d'extraire les articles cible de la base 6 en s'appuyant sur 
le RDBMS 5. 

20 L'utilisateur (le client) emet, via le serveur applicatif 4, des requetes 
correspondant a des caracteristiques des articles cible repondant a des 
criteres determines et regoit du meme serveur 4 le resultat des requetes sous 
la forme soit d ! une liste d'articles satisfaisant les criteres soit de syntheses 
statistiques, ou les deux. 

25 Le moteur 2 met en oeuvre un module 8 de preconditionnement de la table de 
donnees et exploite les ressources d'un supercalculateur 9 pour le traitement 
d'un copie 1 0 de la table preconditionnee en vue d'en extraire les articles cible. 
Le module 8 de precon ditionne ment de la table de donnees regoit les donnees 
importees par exemple d'une banque de donnees 11. Ces donnees sont 

30 organisees sous forme d'un tableau et codees numeriquement selon un format 


o 


A) 
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directement exploitable par le supercalculateur 9 et executable de fa$on 
optimale par les requetes. 

Une copie de cette table est accessible par le supercalculateur 9. Elle reside, 
par exemple, dans Tespace memoire du supercalculateur 9 et peut etre 

5 partionnee si sa taille depasse celle de la memoire disponible. 

Le supercalculateur 9 regoit de Pagent SQL 7 la traduction des requetes 
soumises par le serveur applicatif 4 sous forme d'un fichier d'entree. 
Le supercalculateur 9 traite ensuite ce fichier d'entree selon un programme de 
recherche determine tirant le parti maximum de la puissance des pipelines du 

10 supercalculateur 9 en travaillant sur les colonnes de la copie 10 de la table. 
A Tissue du traitement, il delivre en sortie sous forme d'un fichier, les resultats 
du traitement effectue correspondant a la liste des numeros de ligne des 
articles selectionnes par la recherche et, eventuellement, aux syntheses 
statistiques demandees sur les articles trouves. 

15 Si les articles en clair sont demandes, I'agent SQL 7 exploite le fichier resultat 
pour extraire les articles selectionnes en clair, a partir de la base de donnees 
relationnelle 6. 

Uagent SQL 7 transmet ensuite les resultats (articles selectionnes et/ou 
syntheses statistiques) sous forme de reponse SQL au serveur applicatif 4 
20 emetteur de la requete. 

Un module 12 de coherence de tables, accessible a Tagent SQL 7, contient la 
liste des identifiants des tables presentes et la nomenclature des predicats 
pour chacune d'entre el les. 

La figure 2 illustre un schema de principe du module 8 de preconditionnement 
25 et d'installation de la table, selon Tinvention, delimite par une ligne fermee 
discontinue. 

II comporte des premiers moyens 13 de lecture des donnees importees sur un 
support quelconque^article-par^article T ^ par 
exemple d'une banque de donnees 11. 


Les articles lus sont ensuite, d'une part, completes de leur numero et transmis 
au systeme de gestion de base de donnees relationnelle 5 qui cree la base de 
donnees en clair 6 dans le serveur applicatif decisionnel 1. 
II comporte, d'autre part, des deuxiemes moyens 14 qui analysent les predicats 
5 sur les articles en fonction de relations autorisees et de contraintes sur les 
predicats. 

On donne ci-apres deux exemples de contraintes sur les predicats : 

Dans un premier exemple, une colonne de la base de donnees ne comporte 

que des valeurs nurneriques. Dans cet exemple, il n'est pas necessaire de 

10 coder numeriquement ce qui est deja numerique. 

Dans un deuxieme exemple, une colonne de la base de donnees ne contient 
que des mots pour lesquels I'ordre alphabetique sera utilise dans les 
recherches. Dans cet exemple, Panalyse du predicat tiendra compte de cette 
relation pour le codage numerique du predicat.(preservation de Tordre) 

15 Des troisiemes moyens 15 codent les valeurs des predicats issus des 
deuxiemes moyens 14. Ce codage consiste a remplacer les valeurs des 
champs par leurs index dans la nomenclature des valeurs possibles. 
Des quatriemes moyens 16 creent une nomenclature des predicats issus des 
deuxiemes moyens 14 en fonction du codage par les troisiemes moyens 15. 

20 Le module de preconditionnement 8 fournit d'autre part I'identifiant de la base 
codee. 

La table codee, la nomenclature des predicats et Pidentifiant de la base se 
presentent sous la forme de fichiers, respectivement references 10, 17 et 18 
sur la figure. 

25 La figure 3 illustre un schema de principe d'un agent SELECT 19 selon 
[•invention. II se substitue a Pagent SQL 7 du serveur applicatif decisionnel 1 
qui Pheberge. 

II comporte des moyens 20 de transformation des requites, delimites gar une 


o 


o 


ligne fermee en pointilles, lesquelles requetes sont soumises par le serveur 
30 applicatif 4 en fonction de la nomenclature des predicats 17, des contraintes 
sur les predicats et des relations autorisees. 


o • 


o 


Les moyens 20 de transformation comportent des moyens 21 cTanalyse de la 
requete SELECT et des moyens 22 de codage des predicats. 
Les moyens 21 d'analyse de la requete traduisent la requete en un ensemble 
de vecteurs representatifs des champs a trouver et des relations mises en 
5 oeuvre en tenant compte des relations autorisees. 

Les vecteurs sont ensuite codes par les moyens de codage des predicats en 
fonction de la nomenclature des predicats, des contraintes sur les predicats et 
des relations autorisees. 

II y a autant de vecteurs que de valeurs possibles dans les champs de la table. 
10 L'analyse permet de construire, par ailleurs, pour chacun de ces vecteurs un 
vecteur definissant quel type de comparaison effectuer pour chacune des 
valeurs de champ. 

Les vecteurs sont agences sous forme d'un fichier d'entree exploitable par le 
supercalculateur 9. 

15 Un programme de recherche integre au supercalculateur execute les 
comparaisons entre les vecteurs et toutes les lignes du tableau. 
Ces comparaisons sont effectuees colonne par colonne. 

En cas de coTncidence d'une ligne, son numero est conserve et la reponse 
fournie par le supercalculateur a Pagent SQL 7 se presente sous la forme d'un 
20 fichier resultat comportant la liste des numeros correspondant aux lignes 
Q selectionnees. C'est a partir de ce fichier que les syntheses statistiques 

demandees sont calculees. 

Un module d'extraction 23 construit ensuite, si elle est demandee, la reponse 
en clair destinee au serveur applicatif 4 emetteur de la requete, en extrayant de 
25 la base de donnees relationnelle 6, les articles correspondant a la liste des 
numeros de lignes du fichier resultat du supercalculateur 9 en utilisant le 
numero d'article ajoute a la base 6. 


coherence de tables 12 qui controle I'identite de la table d traiter en cas de 
30 pluralite de tables. 


10 

Un agent d'administration 24 est en outre couple a I'agent SELECT 19 et 
permet de controler I'activite du supercalculateur 9 et gerer les anomalies. II 
active en outre le chargement du programme de recherche dans le 
supercalculateur 9. 
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REVENDICATIOMS 


1. Procede de preconditionnement d'une ou plusieurs tables de donnees d'un 
serveur applicatif decisionnel (1), destinee a etre traitee par un moteur de 

5 recherche (2) repondant a des requetes de selection d'articles sur des criteres 
determines, emises par le serveur applicatif decisionnel (1), caracterise en ce 
qu'il consiste a : 

- analyser (14) les predicats contenus dans les champs des articles destines 
a remplir la base de donnees relationnelle (6) en fonction de relations 

10 autorisee determines ; 

- creer (16) une nomenclature (17) des predicats a partir de cette analyse ; 

- coder (15) numeriquement les predicats conformement a la nomenclature 
(17); eh tenant compte de la nature des predicats et des relations a mettre en 
oeuvre sur les predicats dans les requetes ; et 

is - en ce qu'il consiste a presenter les predicats codes, sous la forme d'une 
table (10) de valeurs numeriques. 

2. Procede selon la revendication 1 , caracterise en ce que le codage consiste 
a remplacer les valeurs des predicats par leur index dans la nomenclature des 
valeurs possibles. 

3. Procede selon la revendication 1 , caracterise en ce que le codage compacts 
les donnees. 

25 4. Procede selon Tune quelconque des revendications 1 a 3, caracterise en ce 
que le codage prend en compte le type de requete servie. 


S^Piroe^e^erT^fi^ 
dans une table de donnees, caracterise en ce qu'il consiste a installer une 
30 copie (10) de la table de valeurs numeriques obtenue par le procede selon 
Tune quelconque des revendications 1 a 4,} sur une machine a capacite 


20 

o 
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vectorielle (9) operant le traitement des valeurs numeriques du tableau en 
fonctions de la requete servie par le serveur applicatif decisionnel (1 ). 

6. Procede selon la revendication 5, caracterise en ce que la requete est 
5 exprimee par un ou plusieurs vecteurs representatifs des valeurs recherchees 
dans un champ, et en ce que le traitement consiste a comparer le ou les 
vecteurs a toutes les lignes du tableau, colonne par colonne, en conservant 
pour chaque coincidence le numero de la ligne. 


10 7. Procede selon la revendication 6, caracterise en ce qu'il consiste, a partir de 
I'ensemble des numeros des lignes selectionnees et de la base de donnees 
relationnelle (6) comprenant un champ additionnel contenant le numero des 
lignes, a extraire de la base de donnees relationnelle (6) les articles 
recherches en clair dont les numeros correspondent, en reponse a une 

15 requ§te. 

8. Procede selon les revendications 6 ou 7, caracterise en ce qu'il consiste a 
exprimer les resultats du traitement sous forme statistique dont une* synthese 
est fournie en reponse a une requete. 

20 

9. Procede selon Tune quelconque des revendications 5 a 8, caracterise en ce 
que la machine a capacites vectorielles (9) est un supercalculateur. 


10. Systeme de recherche mis en oeuvre par un serveur applicatif decisionnel 
25 (1) comportant une base de donnees relationnelle (6) contenant un ensemble 
d'articles cible, et un moteur de recherche (2) couple au serveur applicatif 
decisionnel (1), active par une requete de selection d'articles sur des criteres 
—^detecmines^em 

que le moteur (2) comporte des moyens (8) de preconditionnement des 
30 donnees de la base (6) et d'installation d'une table codee (10), correspondant & 


o 
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la base (6), sur une machine a capacites vectorielles (9), ces moyens (8) 
comportant : 

- des moyens (13) de lecture d'un fichier de donnees correspondant a la 
base ; 

5 - des moyens (16) pour constituer une nomenclature (17) des valeurs des 
champs contenus dans le fichier ; 

- des moyens (15) de codage des champs conformement a la nomenclature 
(17) en tenant compte de la nature des champs et des relations a mettre en 
ceuvre sur les predicats dans la requete ; 

10 - des moyens (21) d'analyse des requetes emises par le serveur applicatif 
decisionnel (1), en tenant compte de relations autorisees, des contraintes sur 
les predicats et de la nomenclature (17) ; et 

- des moyens (22) de codage de la requete filtree, en un ensemble de 
vecteurs contenant les valeurs a trouver dans les champs selon les relations 

is associees, sous forme d'un fichier d'entree exploitable par la machine a 
capacites vectorielle (9). 

11. Systeme selon la revendication 10, caracterise en ce qu f il comporte en 
outre des moyens (23) pour extraire en clair les donnees recherchees dans le 
20 fichier resultat obtenu en sortie de la machine a capacites vectorielle (9) a 
partir de moyens de recherche installes dans le serveur applicatif decisionnel 


12. Systeme selon Tune quelconque des revendications 10 et 11, caracterise 
25 en ce qu'il comporte en outre, un agent d'administration (24) surveillant 
I'activite de la machine a capacites vectorielles, gerant les anomalies, et 
activant les moyens de recherche sur la machine a capacites vectorielles (9). 


d). 





